完全基於類神經網路之語音合成系統初步研究 (A Preliminary Study on Fully Neural Network-based Speech Synthesis System) [In Chinese]
نویسندگان
چکیده
A Preliminary Study on Fully Neural Network-based Speech Synthesis System 廖書漢 SHU-HAN Liao ,蔡亞伯 YaBo Chai , 廖元甫 a Yuan-Fu Liao, a 國立台北科技大學電子工程系 [email protected], [email protected], [email protected] 摘要 傳統的語音合成使用先文字分析後語音合成的架構,但是這種兩階段的作法, 通常會有,若前級分析錯誤,就會影響後級合成,且無法挽救的問題。因此,在 本論文中我們希望嘗試把前後級,全部都改成以類神經網路實現,以便將來可以 直接合成一個大的端對端語音合成類神經網路。主要的想法是,直接以字元串為 輸入單位,並盡量用大量未標記語料,進行非監督式類神經網路訓練。我們的系 統包含四個子網路,分別是DNNG以sequence-to-sequence[1] [2]架構作字轉音,DNNC 以word2vec[3]擷取 characterclass,DNNT以 recurrent neural networklanguage model (RNNLM)[4],求取字元時序關係,與DNNs以deep neural network進行語音合成。 實驗語料由專業播音員錄製,內容包括孟德爾傳全書以及從網路擷取約3000句的 中英夾雜句子。並以相同文字要求新舊系統各自合成測試語料,請10人進行聽測 試,分別以新舊系統各聽10句,進行A/B/X偏好度測試,與以新舊系統各聽20句, 做mean opinion score(MOS)評分,評估新舊系統的可理解度,自然度與相似度。 從實驗結果發現,在可理解度、自然度和相似度方面,分別有72%、70%和61%的 人偏好新系統。而且新系統的可理解度、自然度和相似度的MOS主觀分數各為 3.59、3.1和3.18分,高於舊系統的3.33、3.03和2.9分,顯示我們所提出的系統效能 相當不錯,印證我們提出的想法確實可行。 關鍵詞:語音合成、深度類神經網路、端對端 一、簡介 傳統語音合成系統中,包含兩個處理階段,分別是前端文本分析與後端聲音合 成(如下圖1)。其中在前端文本分析模組,包含了文字正規化、斷詞、字轉音、詞
منابع مشابه
基於深層遞迴類神經網路之多通道電視回聲消除系統(Multi-Channel Television Echo Cancellation based on Deep Recurrent Neural Networks)[In Chinese]
本論文研究智慧型電視操作情境下之電視節目回聲消除,希望能在電視節目持續播 放的情形下,仍能錄到說話者的清晰語音,並能應用在即時語音通訊與遠距語音辨 認人機介面上。本論文的回聲消除系統演算法是以遞迴類神經網路(Recurrent Neural Network,RNN)演算法,再配上多通道麥克風做回聲消除,達到人聲增強, 抑制噪音雜訊,提高語音清晰度。實驗分別實作單純電視節目聲、人聲混電視節目 聲兩種實驗,再導入前五秒無人聲預訓練,後五秒有人聲之電視節目回聲消除模式 實驗,實驗結果以回聲衰減量來判斷效能優劣。實驗顯示,以多通道深層遞迴類神 經網路效能優於其他方法,透過多聲道 RNN處理,的確能有效地濾除雜訊。 關鍵詞: 聲學回聲消除、適應性濾波器、類神經網路、遞迴類神經網路 The 2016 Conference on Computational Linguistics and Spee...
متن کامل遞迴式類神經網路語言模型應用額外資訊於語音辨識之研究 (Recurrent Neural Network-based Language Modeling with Extra Information Cues for Speech Recognition) [In Chinese]
متن کامل
基於聽覺感知模型之類神經網路及其在語者識別上之應用 (Two-stage Attentional Auditory Model Inspired Neural Network and Its Application to Speaker Identification) [In Chinese]
根據神經生理學研究,耳朵會針對聲音的各個頻率進行分頻,並產生出聽覺頻譜,研究人 員根據專注聽覺現象和生物聽覺實驗,也發現了大腦聽覺皮質上神經作用的模式。於本論文中, 我們運用類神經網路,建構出一種模擬人類聽覺的類神經網路模型,並在語者識別這個應用上 進行討論,期望能成功連結神經生理學的知識與工程的技術。而我們所設計的模型,是利用兩 層不同維度的卷積神經網路(Convolutional Neural Network),分別模擬初期耳蝸階段及大腦皮質 階段,透過設計卷積核初始值,即耳蝸階段多組一維分頻濾波器和大腦皮質階段同時解析時頻 資訊的二維濾波器,以使模型能夠快速地達到收斂狀態。而透過模型訓練,根據目的與環境變 因的不同,模型會自動調整其中參數,使輸入資料映射至目標的型態。同時我們也針對所提出 的模型架構,進行了多種形態的比較,進而發現在給定初始值的狀況下,即使訓練不夠充分, 也能產...
متن کامل基於卷積類神經網路之廣播節目音訊事件偵測系統 (Automatic Audio Event Detection of Broadcast Radio Programs Based on Convolution Neural Networks) [In Chinese]
廣播電臺節目中通常包含語音,音樂與其他音訊事件(如笑聲或特效聲)。若能偵 測並切割這些音訊事件,就能進一步對廣播節目進行加值運用。例如,轉寫語音片段的 逐字稿,或是辨認音樂片段的歌名與曲名,以利檢索。針對此問題,在本論文中,我們 首先設計,並以人工標註出一廣播節目音訊事件資料庫,再利用 Convolutional Neural Network (CNN)自動擷取有效的特徵音訊參數,對廣播電臺的音檔做音訊事件偵測與切 割,最後轉成具時間資訊的音訊事件標註檔。實驗方面我們從教育電臺節目中,選出新 聞類與不同性質的談話類節目共 14 個,經人工標注後,獲得總長度共約 60 小時的音 檔,並用來訓練與測試 CNN和傳統 Gaussian Mixture Model(GMM)的效能。實驗結 果顯示以 CNN直接搭配頻譜參數,在偵測語音與非語音,音樂與非音樂或其它與非其 它音訊事件等的錯誤率(e...
متن کامل大規模詞彙語意關係自動標示之初步研究: 以中文詞網(Chinese Wordnet)為例 (A Preliminary Study on Large-scale Automatic Labeling of Lexical Semantic Relations: A Case study of Chinese Wordnet) [In Chinese]
近年來, 以知識資源為本的自然處理技術已成為一種重要的研究取向。 對於各種詞彙語意資源之建構, 包括電子辭典 (Lexicon)、 同義詞詞林 (Thesaurus)、 詞彙網路 (WordNet), 甚至知識本體 (ontologies), 已成為一個不可 抵擋的趨勢。 其中, 詞彙網路是在計算語言學相關領域中, 目前最為普遍利 用之一項詞彙語意資源。 然而, 詞彙網路之建構是一項耗時費力之基礎工程。 對於世界上許多使 用頻度不高的語言而言, 更是一項艱鉅之任務。 本文提出一個借力於普林斯 頓英語詞網 (Princeton WordNet) 與歐語詞網 (EuroWordNet) 之 bootstrapping 方法, 應用在正在發展的中文詞網詞彙語意關係之自動標記工作上。 實 驗的結果與初步評估證明, 此法對於詞網建構是一個相當可行的方式。
متن کامل